BP神经网络算法中各参数的推导过程

最新推荐文章于 2023-03-26 14:05:46 发布

loveitlovelife

最新推荐文章于 2023-03-26 14:05:46 发布

阅读量3.3k

点赞数

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79075076

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

模型:

这里写图片描述

定义：

神经元的输出： $\hat y_j^k =f(\beta_j -\theta_j)··········1$
均方误差为： $E_k=\frac {1}{2} \sum_{j=1}^{l} (\hat y_j^k-y_j^k)^2.·········2$
隐层和输出层的激活函数为sigmoid函数，具有如下性质：

f (x) = 1 1 + e - x

$f(x)=\frac{1}{1+e^{-x}}$

f' (x) = [(1 + e - x) - 1]' = e - x ( 1 + e - x ) 2 = (1 - f (x)) \cdot f (x)

$f'(x) =[(1+e^{-x})^{-1}]'=\frac{e^{-x}}{(1+e^{-x})^2}=(1-f(x))·f(x)$
更新公式：对任一参数v:

v←v+Δv $v \gets v+\Delta v$
BP算法求解策略：梯度下降法
（ http://blog.csdn.net/loveitlovelife/article/details/78991472）

参数调整

1：对输入层到隐层的权值调整： $\Delta v_{ih} =-\eta \frac {\partial E_k}{\partial v_ih}$

则：

\partial E k \partial v i h = \partial E k \partial b h \cdot \partial b h \partial α h \partial α h \partial v i h \cdot \cdot \cdot \cdot \cdot \cdot \cdot 3

$\frac {\partial E_k}{\partial v_ih}=\frac {\partial E_k}{\partial b_h}·\frac {\partial b_h}{\partial \alpha_h}\frac {\partial \alpha_h}{\partial v_ih}·······3$
其中：
++

∂αh∂vih=xi $\frac {\partial \alpha_h}{\partial v_ih} =x_i$ ；
++

∂Ek∂bh=∑lj=1∂Ek∂βj∂βj∂bh=∑lj=1gj⋅whj $\frac {\partial E_k}{\partial b_h}=\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\frac{\partial \beta_j}{\partial b_h}=\sum_{j=1}^lg_j·w_{hj}$ ·····4
++由sigmoid函数有如下性质f’(x)=f(x)(1-f(x))，则：

∂bh∂αh=bh(1−bh) $\frac {\partial b_h}{\partial \alpha_h}=b_h(1-b_h)$
得到：

Δ v i h = η e h x i

$\Delta v_{ih} =\eta e_hx_i$
其中

e h = - \partial E k \partial b h \cdot \partial b h \partial α h = b h (1 - b h) \sum j = 1 l w h j g j \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 5

$e_h=-\frac {\partial E_k}{\partial b_h}·\frac {\partial b_h}{\partial \alpha_h}=b_h(1-b_h)\sum_{j=1}^l w_{hj}g{j}··········5$
2:输出神经元的阈值调整

Δθj=−η∂Ek∂θj $\Delta \theta_j =-\eta \frac {\partial E_k}{\partial \theta_j}$
其中：

\partial E k \partial θ j = \partial E k \partial y ^ k j \cdot \partial y ^ k j \partial θ j = (y^k j - y k j) \cdot y^k j \cdot （ 1 - y^k j ） = g j

$\frac {\partial E_k}{\partial \theta_j}=\frac {\partial E_k}{\partial \hat y_j^k}·\frac{\partial \hat y_j^k}{\partial \theta_j}=(\hat y_j^k-y_j^k)·\hat y_j^k·（1-\hat y_j^k）=g_j$

得到：